2024-ICLR-[Label Wave]Early Stopping Against Label Noise Without Validation Data

DNNは強力だが学習力が高くてNoisy Labelの場合そのNoisyな部分まで過学習してしまう。これへの対策手法の1つはEarly Stoppingである。

だが、これはvalidation Datasetのaccuracyなどで判断するが、学習に使えるデータが減るということでもあるのでモデルの全体の性能を制限してしまう。

この論文ではValidation Dataset不要なEarly Stoppingを提案する。Training Lossについて一旦下がり、Noiseを学び始めたら上がり、そして過学習してまた下がっていくという過程があると経験的にわかったので、これをうまく検出する手法を開発した。

Prediction Changesという指標を導入して、2つの連続するEpochの間で予測を変更したサンプルの数について数えたら、ちょうど合致してそうだとわかった。

下図のaはtest data’s error。bはPrediction Changes。Stages2での誤ったラベルの学習はTest Dataの正解率を下げるだけではなくせっかく学んだTrain Dataの正解率も下がる。

誤ったラベルのデータを学習すると、今まで学んできた内容すら忘れてしまう=Forgetting Eventという問題がある。
PUでのEarly StoppingでTrend Scoreを使ったものがある。
- 📄2023-NIPS-Beyond Myopia: Learning from Positive and Unlabeled Data through Holistic Predictive Trends
最初は簡単なものを覚え、そこからノイズにような難しいものを覚えるMemorization Effectの話がある。
Curriculum学習を使った、データごとのHardnessを評価するものもある。簡単な例から学んでもらう感じ？
- 📄2019-PMLR-[SELFIE] Refurbishing Unclean Samples for Robust Deep Learning